计算机视觉的挑战之一是它需要适应可变环境中的颜色偏差。因此,将颜色偏差对预测的不利影响最小化是视觉任务的主要目标之一。当前的解决方案着重于使用生成模型增强训练数据以增强输入变化的不变性。但是,这种方法通常会引入新的噪声,从而限制了生成数据的增益。为此,本文提出了一种策略,消除了偏差的偏差,该偏差称为随机颜色辍学(RCD)。我们的假设是,如果查询图像和画廊图像之间存在颜色偏差,那么在忽略颜色信息之后,某些示例的检索结果会更好。具体而言,该策略通过在训练数据中辍学的部分颜色信息来平衡神经网络中颜色特征和无关的特征之间的权重,以克服颜色devitaion的效果。所提出的RCD可以与各种现有的REID模型相结合而不更改学习策略,并且可以应用于其他计算机视野字段,例如对象检测。在几个REID基线和三个常见的大规模数据集(例如Market1501,Dukemtmc和MSMT17)上进行的实验已验证了该方法的有效性。跨域测试的实验表明,该策略显着消除了域间隙。此外,为了了解RCD的工作机制,我们从分类的角度分析了该策略的有效性,这表明在具有强大域变化的视觉任务中,最好利用许多而不是所有颜色信息。
translated by 谷歌翻译
Hand and face play an important role in expressing sign language. Their features are usually especially leveraged to improve system performance. However, to effectively extract visual representations and capture trajectories for hands and face, previous methods always come at high computations with increased training complexity. They usually employ extra heavy pose-estimation networks to locate human body keypoints or rely on additional pre-extracted heatmaps for supervision. To relieve this problem, we propose a self-emphasizing network (SEN) to emphasize informative spatial regions in a self-motivated way, with few extra computations and without additional expensive supervision. Specifically, SEN first employs a lightweight subnetwork to incorporate local spatial-temporal features to identify informative regions, and then dynamically augment original features via attention maps. It's also observed that not all frames contribute equally to recognition. We present a temporal self-emphasizing module to adaptively emphasize those discriminative frames and suppress redundant ones. A comprehensive comparison with previous methods equipped with hand and face features demonstrates the superiority of our method, even though they always require huge computations and rely on expensive extra supervision. Remarkably, with few extra computations, SEN achieves new state-of-the-art accuracy on four large-scale datasets, PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. Visualizations verify the effects of SEN on emphasizing informative spatial and temporal features. Code is available at https://github.com/hulianyuyy/SEN_CSLR
translated by 谷歌翻译
对象放置旨在将前景对象放在具有合适位置和大小的背景图像上。在这项工作中,我们将对象放置视为图形完成问题,并提出一个新的图形完成模块(GCM)。背景场景由一个图形表示,在不同的空间位置具有多个节点,并带有各种接收场。前景对象被编码为应插入该图中合理位置的特殊节点。我们还在GCM的结构上设计了一个双路径框架,以完全利用带注释的复合图像。通过在OPA数据集上进行广泛的实验,我们的方法证明在生成合理的对象放置而不会丧失多样性方面显着胜过现有的方法。
translated by 谷歌翻译
很少有图像生成和几张相关的图像翻译是两个相关的任务,这两个任务旨在为只有几张图像的看不见类别生成新图像。在这项工作中,我们首次尝试将几张图像翻译方法调整为几乎没有图像生成任务。几乎没有图像翻译将图像分解为样式向量和内容图。看不见的样式矢量可以与不同的见面内容映射结合使用,以产生不同的图像。但是,它需要存储可见的图像以提供内容图,并且看不见的样式向量可能与可见的内容映射不相容。为了使其适应少量图像生成任务,我们通过将连续内容映射量化为离散的内容映射而不是存储可见图像,从而学习了局部内容向量的紧凑词字典。此外,我们对根据样式向量进行的离散内容图的自回归分布进行建模,这可以减轻内容映射和样式向量之间的不兼容。三个真实数据集的定性和定量结果表明,与以前的方法相比,我们的模型可以为看不见的类别产生更高的多样性和忠诚度图像。
translated by 谷歌翻译
学习为仅基于几个图像(称为少数图像生成的少数图像)生成新类别的新图像,引起了研究的兴趣。几项最先进的作品取得了令人印象深刻的结果,但多样性仍然有限。在这项工作中,我们提出了一个新型的三角洲生成对抗网络(Deltagan),该网络由重建子网和一代子网组成。重建子网捕获了类别内转换,即同一类别对之间的三角洲。该生成子网为输入图像生成了特定于样本的三角洲,该图像与此输入图像结合使用,以在同一类别中生成新图像。此外,对抗性的三角洲匹配损失旨在将上述两个子网链接在一起。六个基准数据集的广泛实验证明了我们提出的方法的有效性。我们的代码可从https://github.com/bcmi/deltagan-few-shot-image-generation获得。
translated by 谷歌翻译
图像裁切旨在在图像中找到视觉吸引力的作物,这是一项重要但具有挑战性的任务。在本文中,我们考虑了一种特定而实用的应用:以人为中心的图像种植,重点是对人的描绘。为此,我们提出了一种以人为中心的图像裁剪方法,该方法具有两种新型候选作物的特征设计:分区感知功能和内容保留功能。对于分区感知功能,我们将整个图像分为基于人类边界框的九个分区,并在人类信息上以不同条件的候选作物中处理不同的分区。为了提供内容的功能,我们预测了一个热图,表明要包含在良好农作物中的重要内容,并提取热图和候选作物之间的几何关系。广泛的实验表明,我们的方法可以在以人为中心的图像裁剪任务上对最新的图像裁剪方法有利。代码可从https://github.com/bcmi/human-centric-image-cropping获得。
translated by 谷歌翻译
合并方法是现代神经网络增加接受场并降低计算成本的必要性。但是,通常使用的手工制作的合并方法,例如,最大池和平均合并,可能无法保持判别特征。尽管许多研究人员在空间域中精心设计了各种汇集变体,以便在这些局限性方面处理这些局限性,但很少访问直接使用手工制作的方法,或者这些专业的空间变体可能不是最佳的。在本文中,我们从信号处理中的提升方案中得出了时间升降机池(TLP),以智能地逐步划分不同的时间层次结构。提升方案将输入信号分配到具有不同频率的各种子兰,这可以看作是不同的时间运动模式。我们的TLP是一个三阶段的过程,它执行信号分解,组件加权和信息融合以生成精致尺寸的特征图。我们选择具有长序列的典型时间任务,即连续的手语识别(CSLR)作为验证TLP的有效性的测试台。两个大规模数据集的实验表明,TLP的表现优于手工制作的方法和专门的空间变体,其较大的边距(1.5%)具有相似的计算开销。作为功​​能强大的功能提取器,TLP在各种数据集上的多个骨干上表现出很大的概括性,并在两个大规模的CSLR数据集上实现了新的最新结果。可视化进一步证明了TLP在校正光泽边界中的机制。代码已发布。
translated by 谷歌翻译
当使用切割和贴子获取复合图像时,前景和背景之间的几何不一致可能会严重损害其保真度。为了解决复合图像中的几何不一致,几项现有作品学会了扭曲前景对象的几何校正。但是,没有注释的数据集导致性能不令人满意和不可靠的评估。在这项工作中,我们为涵盖三个典型应用程序方案的虚拟尝试(Strat)数据集做出了空间转换。此外,以前的作品仅将前景和背景作为输入,而无需考虑它们的相互对应。取而代之的是,我们提出了一个新颖的对应学习网络(CORRELNET),以使用交叉注意图对正面和背景之间的对应关系进行建模,我们可以预测目标坐标,即前景的每个源坐标都应映射到背景上。然后,前景对象的翘曲参数可以从源和目标坐标对派生。此外,我们学习一个过滤面膜,以消除嘈杂的坐标对,以估计更准确的翘曲参数。我们的Strat数据集上的广泛实验表明,我们所提出的CORRELNET对以前的方法更有利。
translated by 谷歌翻译
视频实例细分(VIS)是一项在视频中同时需要分类,细分和实例关联的任务。最近的VIS方法依靠复杂的管道来实现此目标,包括与ROI相关的操作或3D卷积。相比之下,我们通过添加额外的跟踪头提出了基于实例分割方法Condinst的简单有效的单阶段VIS框架。为了提高实例关联精度,提出了一种新型的双向时空对比度学习策略,用于跟踪跨帧的嵌入。此外,利用实例的时间一致性方案来产生时间连贯的结果。在YouTube-VIS-2019,YouTube-Vis-2021和OVIS-2021数据集上进行的实验验证了所提出方法的有效性和效率。我们希望所提出的框架可以作为许多其他实例级视频关联任务的简单而强大的替代方案。
translated by 谷歌翻译
Vision变形金刚(VITS)最近获得了爆炸性的人气,但巨额的计算成本仍然是一个严峻的问题。由于VIT的计算复杂性相对于输入序列长度是二次的,因此用于计算还原的主流范例是减少令牌的数量。现有设计包括结构化空间压缩,该压缩使用逐行缩小的金字塔来减少大型特征映射的计算,并且动态丢弃冗余令牌的非结构化令牌修剪。然而,现有令牌修剪的限制在两倍以下:1)由修剪引起的不完全空间结构与现代深窄变压器通常使用的结构化空间压缩不兼容; 2)通常需要耗时的预训练程序。为了解决局限性并扩大令牌修剪的适用场景,我们提出了Evo-Vit,一种自动激励的慢速令牌演化方法,用于视觉变压器。具体而言,我们通过利用原产于视觉变压器的简单有效的全球课程关注来进行非结构化的案例 - 明智的选择。然后,我们建议使用不同的计算路径更新所选的信息令牌和未表征性令牌,即慢速更新。由于快速更新机制保持空间结构和信息流,因此Evo-Vit可以从训练过程的开始,从训练过程的开始,加速平坦和深窄的结构的Vanilla变压器。实验结果表明,我们的方法显着降低了视觉变压器的计算成本,同时在图像分类上保持了可比性。
translated by 谷歌翻译